技术科普与解读:ChatGPT 大模型硬核解读!(二)GPT4 的多模态涌现能力-接近人类关键特征
技术科普与解读:ChatGPT 大模型硬核解读!(一)家族历史从GPT-1到ChatGPT
在大型语言模型(LLM)中,涌现能力(Emergent Abilities)是指模型具有从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。
(编者注:这种能力就类似人类小孩通过上学,学习了大量的知识,获得了相关方面的技能能力)
GPT-4的关键技术
1. 理论基础——多模态涌现能力
讲到多模态大语言模型的优势,一般首先要提到这类模型的涌现能力和思维链。这两者是大语言模型不断接近人类的关键特征。
我们之所以认为GPT-4会是具有里程碑意义的一代,正是因为多模态的GPT-4会从视觉角度和视觉-文字语义融合方面涌现出更多的能力。这些能力的出现不是简单的视觉或文本能力的叠加。2022-2023年,我们可以认为AI是第一次睁开双眼理解这个世界,通过多种模态的感知来形成更高级的智能。
与大语言模型相比(LLM)相比,多模态大语言模型(Multi-modal Large Language Model ,MLLM)可实现更好的常识推理性能,跨模态迁移更有利于知识获取,产生更多新的能力,加速了能力的涌现。这些独立模态或跨模态新特征、能力或模式通常不是通过目的明确的编程或训练获得的,而是模型在大量多模态数据中自然而然的学习到的。
缩放定律(参数增加后精度损失连续减少) V.S. 涌现能力(1010-1011参数后新能力的涌现)(来源:OpenAI)
在语言模型发展的早期,通过在更多数据上训练更大的模型,可获得近似连续的精确度提升。(可称为缩放定律/Scaling Laws)到了 2015 年左右,随着深度学习技术的发展和语料库的增大,模型达到一定的临界规模后,NLP开发者们发现,大语言模型(包括GPT-3、GLaM、LaMDA和Megatron-Turing NLG等)开始表现出一些开发者最开始未能预测的、更复杂的能力和特性,这些新能力和新特性被认为是涌现能力的体现。
当模型尺寸增加到一定大小后,新能力涌现(来源:Google/Deepmind)
我们在研究GPT-4时,发现GPT-4具备了OpenAI在预训练时和发表的技术报告中并未明确的能力。这些能力都属于涌现出来的能力。而且某些能力或许要在OpenAI开放GPT-4的视觉输入后才能发现。
涌现能力是基于深度学习模型的分层结构和权重学习机制实现的。涌现出来的能力可以是基于文本的,也可以是多模态的。我们可以将GPT-4这类大模型的训练视为解方程,每一层神经元(可视为变量组合)的输出都作为下一层神经元的输入,并且模型的每个权重(Weight)都通过强化学习算法进行学习和更新。这种分层的结构和权重学习机制使得深度学习模型能够自动的学习到从原始数据中提取隐含的特征和模式,从而实现涌现能力。当大语言模型被训练时,通过学习大量的多模态训练数据,并且根据数据中的统计规律和模式自适应的调整其内部参数和结构,从而表现出一些新的能力和特性。这类似于咱们常说的量变引发质变。
涌现能力是大语言模型的重要特性,也是现在火爆的大模型各种能力的理论基础。涌现能力使得GPT-4能够在无需人工干预的情况下,从原始的多模态数据中自动学习到复杂的特征和模式,从而实现更准确和更高效的预测和决策。
涌现能力的另一个重要表现是多模态模型的泛化能力。在没有专门训练过的情况,GPT-4也可以泛化到新的、未知的多模态数据样本上。这种泛化能力主要取决于模型的结构和训练过程,以及数据的数量和多样性。如果模型具有足够的复杂性和泛化能力,就可以从原始数据中发现新的、未知的特征和模式。
当然,GPT-4涌现出的新能力可能仍有局限性,例如:模型可能产生错误的回答,对某些问题缺乏理解,容易受到输入干扰等。目前认为GPT-4的幻觉与其涌现能力具有相关性。随着涌现能力的增强,在不引入幻觉控制技术的情况下,也会产生更多的幻觉。
2. 核心优势——多模态思维链
思维链(Chain of Thought)可视为大语言模型涌现出来的核心能力之一。之所以现在各类GPT研究火爆,也与模型训练出的思维链可进入产品应用有密切关系。
思维链形成机制可以解释为模型通过学习大量的语言数据来构建一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。思维链是ChatGPT和GPT-4能让大众感觉到语言模型“像人”的关键特性。
虽然GPT-4这些模型并非具备真正的意识或思考能力,但用类似于人的推理方式的思维链来提示语言模型,极大的提高了GPT-4在推理任务上的表现,打破了精调(Fine-tune)的平坦曲线。具备了多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。
当然思维链的训练可能并不容易。尽管现在有大量团队进入大语言模型训练领域,但若干年内能找到训练诀窍并完成思维链训练的团队可能不多。对创企来说,完成思维链的训练,才算真正拿到了这波大模型AI竞技的入场券。
思维链提示的示例(来源:Google)
通过多模态思维链技术,GPT-4将一个多步骤的问题(例如图表推理)分解为可以单独解决的中间步骤。在解决多步骤推理问题时,模型生成的思维链会模仿人类思维过程。这意味着额外的计算资源被分配给需要更多推理步骤的问题,使用更多的时间,把复杂问题分解为简单问题,进一步增强GPT-4的表达和推理能力。
当模型尺度增加到一定规模,思维链能力出现(来源:Google)
一般认为模型的思维推理能力与模型参数大小有正相关趋势,传统看法是突破一个临界规模(大概62B,B代表10亿),模型才能通过思维链提示的训练获得相应的能力。如果在6B以下的单模态模型,那很可能还只是GPT-2级别的初级模型。另外也有研究表明,在语言训练集中加入编程语言(例如Python编程代码)可提升模型逻辑推理能力。具有多模态思维链推理能力的GPT-4模型可用于简单数学问题、符号操作和常识推理等任务。
多模态思维链框架(来源:AWS)
GPT-4的多模态思维链是通过观察大量的多模态数据来学习内在表示,然后利用这个表示来生成连续的语言输出的机制。这个过程是通过模型的训练、内在表示的构建和语言输出的生成三个步骤来实现的。
同时,根据AWS的研究,通过多模态思维链可以将大模型的参数量进一步缩小,甚至可在在1B参数下优于GPT-3.5(175B)16个百分点,并且可通过多模态训练进一步降低模型幻觉的产生概率。当然,这种多模态思维链带来的模型性能提升和缩小是否能够泛化到不同场景还有待进一步确认。
在缺乏视觉参考的情形下,幻觉的发生率大概是64%。有了视觉模态加持之后,RougeL得分已经提升到96.97%,回答准确度有了明显提升,62.5%的幻觉问题获得了解决。
通过加入视觉模态降低语言模型的幻觉(来源:AWS)
3. 编程范式——多模态提示工程
多模态大模型(如GPT-4)的提示工程(Prompt Engineering)是指根据特定的目标和语境设计出一系列问题或任务,以便使用大模型生成有关主题或主题领域的连贯和有意义的文本。提示工程的目标是通过精心设计提示,以从模型中引出所需的响应,来提高生成文本的质量和相关性。提示工程与思维链的产生密不可分,也是目前自然语言编程的理论基础。
语言模型的4种研究范式(来源:卡内基梅隆大学)
大概在2017-2019年间,语言模型的研究重心逐渐从传统特定领域的有监督学习模式(基于非神经网络或神经网络)转移到预训练模型上。在那时,基于预训练语言模型的研究范式通常是“预训练+精调”(Pre-train+Fine-tune),即在精调阶段,根据下游任务对预训练模型进行微调,以获得更好效果。
但是由于模型越来越大,以及预训练阶段和下游任务之间的差距可能很大,对各个细分领域Fine-tune的计算资源要求、训练数据需求和时间成本也在快速上涨。大量爆发的下游任务也使得175B这个级别模型预训练和精调变得异常复杂。在这种背景下,随着GPT-3的发布,提示工程成为了预训练模型的新方向。形象的说,提示有点类似于老师在学生回答问题时指点回答方向。
提示方法(来源:卡内基梅隆大学)
GPT-4/GPT-3模型中提示的新范式可归纳为“预训练+提示+预测“(Pre-train+Prompt+Predict)。在这一范式中,各种下游任务被调整为类似预训练任务的形式。通过选取合适的提示,使用者可以控制模型预测输出,从而一个完全预训练模型可以被用来解决多样的下游任务。
提示工程使得GPT-3模型在训练样本较少时获得了更高精度(来源:OpenAI)
这里举一个填充提示的简单例子。(上图)我们从输入x(比如电影评论)开始,然后输出期望值y。其中一个任务是使用提示函数重新模板化此输入,其输出表示为x'。此时语言模型的任务仅仅是预测z值(句子中的一个词)来代替占位符Z。然后对于Z被答案填充的提示,我们将其称为填充提示。通过这一提示方式,在对应细分场景下,语言模型将原来的问题的期望值y(一句话)简化为答案z(一个词)的计算,明显降低了应答的复杂度。这相当于学生在老师的指导下学会造句。
而GPT-4则针对多模态数据集,设计了对应的提示。GPT-4的提示工程涉及几个步骤,包括选择合适的模型架构和参数、设计提示格式和结构、选择合适的任务和训练数据,以及使用选定的提示和数据微调模型。更多GPT-4的提示细节还需等待OpenAI发布。
多模态提示示例(来源:微软)
提示工程同时也提高了语言模型“可操纵性”,即模型根据用户要求更改其行为的能力。例如,用户可以命令GPT-4以不同的风格、语气或内容特征来回答。例如“你是一个唠叨的数据专家”或“你是一个言简意赅的数据专家”来开始提示,让模型解释一个数据科学概念。这里“唠叨”和“言简意赅”操纵了模型回答的语言量。
4. 关键技术——人类反馈强化学习
4.1 对齐调整
以往的大型语言模型(例如 GPT-3)根据来自互联网或书籍的大量文本数据进行训练,能够生成类似人类自然对话的文本。但是,这些模型未必产生与人类期望或理想值一致的输出。这类模型的目标函数是词汇序列的概率分布,使他们能够预测序列中的下一个词是什么。
但在实际应用中,人类往往希望模型执行一些特定的、有价值的认知工作,而不仅仅是单纯的产生对话序列。从数学含义的方向去理解,计算机计算出的单词序列的统计分布可能是对语言建模的一种有效的选择,但人类的认知往往要结合常识、道德和场景来选择最适合特定情境的文本序列,而不仅仅是简单的选择最高概率。这就需要将AI的表述或内在“价值观”与人类进行对齐(Alignment)。
训练策略可能会导致语言模型在某些更复杂的任务中出现偏差,因为仅经过训练以预测文本序列中的下一个词(或掩码词)的模型,可能不一定会学习一些其含义的更高层次的内在表示。
高精度低对齐 V.S. 低精度高对齐的形象示例(来源:Marco Ramponi,https://www.assemblyai.com/blog/how-chatgpt-actually-works/)
如果仅仅采纳最高概率,模型可能会表现出对人类没有帮助的应答,包括:
1)缺乏帮助:无信息价值,或者不遵循用户的指示。
2)幻觉:模型编造了不存在的或错误的事实,或者给出不合理的流程。
3)生成有偏见或有害的输出:在有偏见/有害数据上训练的语言模型可能会在其输出中重现问题或有害信息。
对齐与未对齐的回答对比(来源:Ruibo Liu,et.al, Aligning Generative Language Models with Human Values)
在大语言模型前进的道路上,如何学会和嵌入人类的价值判断,规避幻觉和有害输出仍然是大模型商用化的突出挑战。根据目前研究情况,初步认为对齐(Alignment)调整可能会在一定程度上损害语言模型的综合能力。
4.2 RLHF
GPT-4/ChatGPT 与GPT-3.5的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)的技术。这一训练范式增强了人类对模型输出结果意向(Intent)的调节,并且对结果进行了更具理解性的排序。
OpenAI在其早期的学术报告中公开表示,与人类偏好保持一致,是许多领域人工智能技术研究和部署的核心组成部分。OpenAI希望通过RLHF技术,模型能倾向出高质量回答,确保模型输出对人类有益,进而保证模型的安全性。就笔者团队分析来看,RLHF也是保持多轮对话不偏离主题的关键保障。
GPT-4/ChatGPT最初引入人类标记员的主要目的是加快训练速度和质量。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。
TAMER架构在强化学习中的应用
这里以TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架为例。该框架将人类标记员引入到模型代理(Agents)的学习循环中,可以通过人类向代理提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。
GPT-4的多模态奖励模型 (MMRM)是小号的有监督精调模型 (SFT) ,但在顶部添加了一个新的线性层来预测奖励。奖励模型的输入是原始输入加上 SFT 模型生成的输出。
在具体实现上,人类标记员扮演对话的用户和人工智能助手,提供多模态对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。代理(Agents)同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。
奖励模型的过拟合导致模型性能下降(来源:OpenAI)
因为模型仅仅从狭窄分布的训练数据中学习,所以GPT-4中奖励模型只是人类偏好的部分表征(管中窥豹),过度的训练反而可能导致奖励模型过拟合(以偏见代替整体),并导致模型训练效果的下降。另一方面,模型的人类标注员可能也无法代表用户所在地区人群的总体偏好。
5. 安全技术——基于规则的奖励模型
安全是大模型商用的关键要素,OpenAI也投入了大量资源来提高 GPT-4 的安全性和一致性。包括引入领域专家进行对抗性测试和红队测试,模型辅助的安全流水线以及安全指标的改进。OpenAI引入的领域安全专家达到了50多人,覆盖AI一致性风险、网络安全、生物风险等领域。
与ChatGPT一样,GPT-4也使用了强化学习和人类反馈 (RLHF) 来微调模型的行为,以产生更符合用户意图的响应。但当给定不安全的输入时,模型可能会生成不良内容,例如提供有关犯罪的建议。另外,模型也可能对安全输入变得过于谨慎,拒绝无害的请求。
GPT-4的安全流水线包括两个主要部分:一组额外的安全相关 RLHF 训练提示,以及基于规则的奖励模型。
基于规则的奖励模型(Rule-based Reward Model,RBRM)是一组Zero-shot 迷你GPT-4 分类器,根据预定义的规则为特定动作或事件分配奖励。在这种模型中,奖励是根据事先定义的一组规则确定的,而不是从数据中学习得到的。这些分类器在 RLHF 微调期间为 GPT-4 策略模型提供额外的奖励信号,以正确的输出行为为目标进行训练,例如拒绝生成有害内容或不拒绝无害的请求。
基于规则的奖励模型(来源:日本国立信息学研究所)
很多早期的NLP模型和软件就是基于规则的(包括各种早期的智能音箱/”人工智障”),但这类模型在泛化场景下表现不佳,只能回答相对固定的问题,并不具备现在的大语言模型的涌现能力。
GPT-4中使用RBRM的目的是充分借助其优势,即模型中使用的规则可以简单实用一些,建立成本低于常规奖励模型。例如,在象棋等游戏中,规则可能很简单。在更复杂的情况下,规则可能相对复杂,例如为实现特定目标或达到一定的性能水平授予奖励,但总体来说比构建奖励模型的训练数据集成本更低,而且构建起来比更节约时间。
规则奖励模型通常用于强化学习,其中代理被训练为采取最大化奖励信号的行动。在这种情况下,规则奖励模型基于代理是否遵循特定规则或实现特定目标,为代理分配奖励。
规则奖励模型的优点允许更多地控制学习过程。通过事先指定规则,开发人员可以引导学习过程,使其专注于特定的行为或结果。
基于规则的奖励模型在样本较少情况下表现出较好性能(来源:Meta AI)
基于规则的奖励模型的主要特点如下:
规则的可定义性:根据预先定义的规则来为模型的输出分配奖励。这些规则通常由领域专家或高质量的人类标注员制定,以确保奖励与任务目标和期望行为保持一致。
规则的可解释性:奖励模型依赖于明确的规则,这些一般具有较高的可读性和可解释性。以方便开发人员解读和调试模型。
规则的可调整性:通过修改或添加新的规则,可以相对容易地调整奖励函数,以适应不同的任务和环境或更复杂的规则。
基于规则的奖励模型也存在一些局限,包括:
缺乏场景泛化能力:因为基于规则的奖励模型严重依赖于预先定义的规则,可能在未知或新的情况下泛化能力较弱,这可能导致模型在面对新的情况时出现幻觉现象或无法做出合适的应答。
规则设计的复杂性:例如对于复杂任务,设计适当的规则有可能非常耗时。此外,如果规则过于复杂或内部自相矛盾,可能导致模型训练不出有效的策略。
规则的学习效率有下降可能:由于模型需要在给定的规则集合中探索最佳策略,在规则设计不理想的情况下,基于规则的奖励模型可能导致较低的学习效率或过拟合。
6. 安全技术——多模态幻觉检测
大型语言模型(Large Language Model, LLM)的幻觉(Hallucination)指的是模型生成的输出包含一些与输入不符合的信息,这些信息可能是错误的、无关的或者荒谬的。与人类直觉相反,随着模型变得更加以假乱真,幻觉会变得更加危险。GPT-4等模型的这种幻觉可能会出现在各种类型的任务中,比如文本生成、图文分析和问答系统等。
由于大模型(包括GPT-4)本质上可以视为训练集(人类知识/语言)的有损压缩,因此在模型运行时无法完整复现或者应答原始知识,从而模型的幻觉来自于信息压缩的偏差。多模态幻觉的本质是这种有损压缩偏差的体现,也是通过数学逼近人类语言的必然代价。(类似于压缩后的图像边缘出现不正常的条纹) 模型场景的增加和模型参数数量的巨大也增加了幻觉出现的概率。
大语言模型可视为知识/语言的有损压缩
幻觉包括以下几类:
含义相关性(Semantic Relatedness)的幻觉:模型生成的输出可能包含与输入语境无关或不相关的单词或短语,这些单词或短语通常是通过模型之前接触过的文本来学习的。
语义扩张(Semantic Expansion)的幻觉:模型生成的输出可能包含与输入语境相关但是过于具体或者过于抽象的内容,这些内容也可能是通过模型之前接触过的文本来学习的。
结构错误(Structural Errors)的幻觉:模型生成的输出可能不符合正确的语言表达或句子结构,这些错误可能是由于模型在生成时遗漏了某些信息,或者将不相关的信息结合在一起导致的。
为了降低幻觉出现的概率,改善模型质量,Meta AI提出一种幻觉内容检测机制。通过检测生成内容中的幻觉令牌/单词,对生成内容的真实度进行评估,以减少模型幻觉出现的概率。从GPT-4的幻觉减少比率来看,猜测类似该技术的方法或已应用在GPT-4中。
通过幻觉单词检测器减少幻觉(来源:Meta AI)
幻觉是GPT-4等大型语言模型中一个重要的问题,通过不断的优化模型和改进训练方法,或增加多模态幻觉语义检测器,研究人员可以逐步提高模型的准确性和稳定性,从而更好地满足各种自然语言处理任务的需求。
7. 模型信息——关于模型大小
截至目前OpenAI还没有发布 GPT-4 模型大小和结构的具体信息。GPT-4 的技术报告也没有透露这些技术细节,训练数据或训练方法也没有相关信息释放出来。
Bing反馈的GPT-4模型大小
GPT-3 是目前最大的知名语言模型之一,包含了 1750 亿(175B)个参数。在 GPT-3 发布之前,最大的语言模型是微软的 Turing NLG 模型,大小为 17 亿(1.7B)个参数。在 GPT-3 发布后不久,OpenAI 团队就曾表示他们计划在未来几年内研发更大的模型。而随着技术和算法的不断发展,GPT-4 模型似乎也应朝着更大的尺寸发展。
另外,GPT-4的上下文窗口尺寸也较GPT-3.5和GPT-3增大了不少。2020 年发布的 GPT-3 模型上下文窗口为 2,049 个令牌。在 GPT-3.5 中,窗口增加到 4,096 个令牌(约 3 页单行英文文本)。GPT-4 有两种尺寸。其中一个 (GPT-4-8K) 的上下文窗口大小为 8,192 个令牌,另一个 (GPT-4-32K) 可以处理多达 32,768 个令牌,大约 50 页文本。即便是线性增加,GPT-4也应比同档位的GPT-3模型大很多。
(编者注:OpenAI 6月13日最新更新了一些能力:ChatGPT 3.5/4 双双升级:更长,更便宜,更开放,更可控)
有传言说GPT-4模型大概是GPT-3的100倍或1000倍。从训练的角度看,这么大的模型膨胀可能会消耗更多的训练资源和训练周期的过度延长。
GPT-4与GPT-3.5的执行速度对比(来源:ARK投资)
根据ARK的分析,GPT-4的执行时间大概是GPT-3.5的3.7倍。由此我们初步估算GPT-4的文本语言部分的大小大约是62B-650B之间。根据目前 GPT 模型性能的发展趋势,以及多模态技术的加持,预计 GPT-4 的模型参数大概为62B-1500B之间。
再回顾一遍 GPT-4 的关键技术:多模态涌现,多模态思维链,多模态提示工程,人类反馈学习,基于规则的奖励模型,多模态幻觉检查,
下期预告:GPT-4的多模态架构。
关注我,一起学习 ChatAI,掌握 AI 工具。
公众号后台发送消息:“领资料”,领取九大类别,数百篇 AI 学习资源。